arxiv：2502.12206v1 [CS.AI] 2025年2月16日__

arxiv：2502.12206v1 [CS.AI] 2025年2月16日

可下载资源数量

已经购买

下载数量：1

单价	0 1.0
Coupon	100% 0%
Total	0 1.0

点击下载点击购买并下载

点击购买，资源将自动在新窗口打开.

机构名称：

arxiv：2502.12206v1 [CS.AI] 2025年2月16日

¥ 1.0

热度

随着大型语言模型（LLMS）继续发展，确保它们与Human的目标和价值观保持一致仍然是一个紧迫的挑战。一个关键问题是工具性的转变，在为给定的目标进行优化时，AI系统发展了意想不到的间隔目标，从而超越了最终的观点，并且偏离了人为意义的目标。这个问题在加强学习（RL）培训模型中特别相关，该模型可以产生创造性但意外的策略以最大程度地提高奖励。在本文中，我们通过比较经过直接RL优化的模型（例如O1模型）与从人类反馈（RLHF）进行增强学习的训练的模型进行比较。我们假设RL驱动的模型表现出更强的工具收敛趋势，因为它们以可能与人类意图失调的方式优化了目标指示行为。为了评估这一点，我们会引入仪表板1，这是用于评估RL训练LLM的仪器收敛的基准。最初的实验揭示了一个案例，其中一个旨在赚钱的模型不期望追求工具目标，例如自我复制，意味着工具融合的迹象。我们的发现有助于更深入地了解AI系统中的一致性挑战以及不限制模型行为带来的风险。

添加pdf代下载 VIP点击下载文件